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摘 要 
SKA 科学 数据 处 理 产 生 的 数据 超出 了 所 有 已 存在 的 分 布 式 处 理 系 统 的 处 理 能 力 ， 如 何 
实现 一 个 分 布 式 执行 框架 是 当前 科学 数据 处 理 的 一 个 重要 研究 内 容 。Spark 是 非常 成 熟 的 
一 个 商业 框架 ,在 互联 网 应 用 中 被 广泛 应 用 ， 本 文 根 据 SKA 项 目 进 展 要 求 ， 重 点 研究 了 如 
何 将 算法 参考 库 (ARL) 中 的 部 分 管线 移植 到 Spark 上 执行 。 本 文 对 部 分 实现 过 程 进行 了 分 析 
讨论 ,给 出 了 相应 的 任务 流程 实现 。 最 终结 果 表 明 ， 移植 后 代码 生成 结果 符合 预期 Spark 
能 够 满足 部 分 数据 分 布 式 数据 的 要 求 ， 但 迫切 需要 解决 自身 存在 的 一 系列 问题 。 
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7. 前 


为 了 进一步 开展 当前 重大 科学 问题 如 暗物质 和 暗 能 量 、 黑 洞 和 致密 天 人体、 宇宙 起 源 、 天 
体 起 源 以 及 宇宙 生命 起 源 等 研究 工作 的 需要 | 平方 公里 阵 ( Square Kilometre Array, SKA ) 
项 目 [1,2 被 提出 ， 并 成 为 国际 上 即将 建造 的 最 大 综合 孔径 射电 望远镜 BI , 得 到 全 球 天 文学 家 
的 重点 关注 。SKA 建 在 澳大利亚 、 南 非 及 南部 非洲 8 个 国家 的 无 线 电 宁静 区 ， 其 接收 面积 
可 达 1 平方 公里 ， 频率 覆盖 50MHz-20GHz。SKA 作为 下 一 代 射 电 望 远 镜 ， 具 有 极 高 的 灵 
WE ( EE JVLA 灵敏 度 提高 50 倍 ,搜寻 速度 提高 10000 倍 ), 以 千 公里 的 基线 获得 极 高 的 空 
间 分 辩 率 ， 以 纳 秒 级 的 采样 获得 精细 的 时 间 结 构 ， 以 10Pb/s 的 速率 产生 超越 全 球 互联 网 总 
量 的 数据 。 以 宽 视 场 、 多 波束 、 高 动态 、 高 分 辩 和 大 数据 为 核心 概念 的 SKA 将 颠覆 射电 天 
文学 的 传统 研究 手段 ,给 天 文学 研究 带 来 革命 性 全 新 的 理念 。 

SKA 高 分 辨 率 、 高 灵敏 度 、 高 动态 范围 和 宽 视 场 等 新 特性 ,给 SKA 数据 处 理 特别 是 工 
业界 带 来 了 前 所 未 有 的 挑战 。SKA 的 巨大 规模 和 复杂 程度 远 远 超出 了 现 有 射电 天 文 望远镜 
阵列 ， 全 规模 运行 的 SKA 产生 的 海量 数据 需要 10 亿 亿 次 / 秒 处 理 能 力 ， 是 目前 世界 上 最 快 
的 超级 计算 机 神威 太湖 之 光 处 理 能 力 ( 0.9 亿 亿 次 / 秒 ) 的 10 倍 。 考 虑 到 计算 效率 和 软件 执 
行 效率 ( 目前 天 文 软件 在 超 算 平 台 上 的 执行 效率 普通 在 10% 其 至 更 低 ) , 实际 需求 将 大 大 超 
出 这 个 理论 估算 钙 。 

为 了 充分 利用 计算 资源 ,确保 数据 处 理 流程 的 可 靠 性 , XT 5 年 来 SKA 的 科学 数据 处 
理 器 (SDP ) 一 直 在 研究 与 测试 执行 框架 (Execution Framework) 技 术 ， 以 期 找到 满足 未 来 
发 展 要 求 ， 性 能 突出 的 执行 框架 技术 。 这 其 中 ,除了 本 文 作者 所 在 项 目 组 参与 的 DALiuGE 
等 相关 工作 [5, 6 以外， 也 一 直 在 研讨 商用 执行 框架 如 Spark[7,3、DASK 的 可 用 性 。 本 文 的 
工作 ， 正 是 针对 这 一 方面 的 工作 , 细致 讨论 了 SPARK 执行 框架 在 未 来 SKA 科学 数据 处 理 
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中 的 可 用 性 。 


二 、 研 究 动 机 与 需求 
2.1 研究 动机 

Spark 于 2009 年 诞生 于 加 州 大 学 伯克利 分 校 AMPLab。 已 经 成 为 Apache 软件 基金 会 
旗下 的 顶级 开源 项 目 。 相 对 于 MapReduce 上 的 批量 计算 、 迭 代 型 计算 以 及 基于 Hive 的 SQL 
查询 ，Spark 可 以 带 来 上 百倍 的 性 能 提升 。 目 前 Spark 的 生态 系统 日 趋 完善 Spark SQL 
的 发 布 、Hive on Spark 项 目的 启动 以 及 大 量 大 数据 公司 对 Spark 全 栈 的 支持 , 让 Spark 的 
数据 分 析 范 式 更 加 丰富 。Spark 与 Hadoop 的 MapReduce 计算 框架 类 似 ,但 相对 
MapReduce ME , Spark 特点 更 为 突出 ， 如 其 具有 可 伸缩 、 基 于 内 存 计算 等 特性 ， 可 以 直 
接 读 写 Hadoop 上 任何 格式 数据 , 在 进行 批 处 理 时 更 加 高 效 , 延迟 更 低 。 目 前 已 经 成 为 轻 量 
级 大 数据 快速 处 理 的 统一 平台 。 这 其 中 , 弹性 分 布 式 数据 集 (Resilient Distributed Datasets, 
RDD) 是 Spark 的 核心 ,RDD 是 一 种 分 布 式 的 内 存 抽象 ,表示 一 个 只 读 的 记录 分 区 的 集合 ， 

特别 需要 关注 的 是 Spark 是 基于 内 存 计算 的 大 数据 并 行 计算 框架 , 提高 了 在 大 数据 
环境 下 数据 处 理 的 实时 性 ， 同 时 保证 了 高 容错 性 和 高 可 伸缩 性 ， 人 允许 用 户 将 Spark 部 署 在 
大 量 廉价 硬件 之 上 ， 形 成 集群 。 这 对 于 当前 SKA 科学 数据 处 理 来 说 ， 这样 基于 全 内 存 与 廉 
价 集群 的 方式 非常 有 吸引 力 。 

算法 参考 库 (ARL) 是 由 射电 天 文科 学 家 Tim Cornwell 领头 开发 的 射电 干涉 阵 数据 处 理 
算法 验证 库 ， 用 以 为 后 续 SKA 的 数据 处 理 提供 算法 验证 。 目 前 ，ARL 基于 Python 语言 ， 
已 经 实现 了 射电 干涉 阵 处 理 的 主要 算法 ， 全 部 程序 开源 ， 供 射电 干涉 阵 数 据 处 理 参考 使 用 。 
自 2018 年 SKA 完成 主要 工作 包 的 关键 设计 评估 ， 进 入 桥接 阶段 后 ，ARL 已 经 成 为 系统 学 
习 、 研 究 SKA 数据 处 理 的 基础 算法 参考 库 。 

针对 SKA 一 期 中 频 阵 可 见 度 校准 问题 ,当前 的 ARL 中 实现 了 一 个 全 串 行 的 MID1 ICAL 
管线 ， 分 为 预测 、 校 准 、 反 馈 、 去 着 积 四 个 部 分 。MID1 ICAL 管线 的 特点 如 下 : 

(1) 逻辑 任务 同时 具有 数据 密集 型 和 计算 密集 型 的 特性 ; 

(2) 逻辑 任务 之 间 存 在 数据 依赖 ， 且 任务 之 间 通 讯 量 巨大 ; 

(3) 需要 多 次 迭代 完成 ， 并 且 两 次 迭代 之 间 数 据 需 要 大 量 更 新 ; 

(4) 现 有 存储 条 件 无 法 长 时 间 保 留 原 始 数据 ， 需 要 在 一 个 观测 周期 内 完成 管线 的 执行 。 

为 了 满足 SKA 后 续 建设 工作 ， 如 何 将 这 样 的 串 行 代码 移植 到 分 布 计算 框架 下 ， 并 分 析 
其 实现 方法 和 性 能 变化 ,深入 了 解 不 同 的 算法 在 分 布 计 算 框 架 下 的 实现 方式 与 性 能 评价 ,对 
于 后 续 开展 SKA 科学 数据 处 理 有 重要 的 作用 ,这 也 正 是 SKA 桥接 阶段 的 工作 重点 ,需求 非 
常 迫切 。 


2.2 处 理 需 求 

SKA1 中 频 有 197 SKA ,最 大 基线 长 度 是 120 公里 。SKA1 低频 有 130000 个 天 线 ， 
最 长 基线 长 度 40 公里 。 预 计 SKA 1 的 数据 注入 速度 约 为 2TB/s。 为 进行 实验 与 性 能 分 析 , 
本 文中 以 SKA 中 频 天 线 设计 指标 为 基础 ， 定 义 基线 数 19306 个 ，81.92 个 通道 ， 每 个 通道 
宽度 800 MHz , 4 个 极 化 以 及 36 个 采样 时 间 。 总 计算 任务 28800 个 。 

在 未 来 的 系统 部 署 中 ， 成像 管线 (Imaging Pipeline ) 和 非 成 像 管线 (Non-Imaging 
Pipeline) 是 其 中 的 2 个 重点 。 其 中 成 像 管 线 将 包括 可 见 度 男 数 接收 、 可 见 度 酌 数 预 处 理 、 实 
时 校准 、 快 速成 像 、 瞬 变 源 候选 体检 测 、 数 据 缓 冲 等 多 个 部 分 。 非 成 像 管线 将 包括 接收 脉冲 
星 守 时 特性 文件 、 脉 冲 星 候选 体 接收 、 瞬 变 观 测 缓冲 、 脉 冲 星 守 时 处 理 等 各 个 部 分 。 从 当前 
SKA 的 建设 来 看 ， 这些 管线 的 研制 是 整个 数据 处 理 系 统 的 核心 。 本 文 讨 论 的 管线 ， 是 实时 
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校准 管线 的 一 个 关键 部 分 。 


三 、 软 件 实现 与 关键 技术 
3.1 代码 基本 流程 

1 给 出 了 ICAL 中 的 管线 单一 通道 对 应 的 逻辑 任务 ,将 这 样 的 逻辑 任务 由 串 行 转 为 分 
布 计算 ,最 关键 的 是 将 可 以 原来 紧 夸 合 的 功能 ,转变 为 松散 厅 合 的 模块 。 我 们 重点 说 明 
Reppre_ifft 和 Degrid , 以 及 Pharotpre dft sumvis 两 个 功能 部 分 。 
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1. MID1 ICAL 管线 单一 通道 对 应 的 罗 辑 任务 ， 括 号 内 是 需要 处 理 的 数据 量 
Figure 1. The logical diagram of MID1 ICAL Pipeline with single channel. The data in 
the parentheses shows the amount of data 
3.1.1 Reppre_ifft 和 Degrid 代码 实现 
Reppre ifft & Degrid 阶段 是 根据 局 部 天 空 模型 ， 预 测 观测 天 空 的 可 见 数据 ， 开 发 中 利 
用 了 如 下 ARL 琅 数 。 对 这 一 部 分 并 行 的 实现 方法 是 对 频段 、 分 片 、 时 间 片 等 进行 数据 的 分 
片 。 最 终 对 于 MID1 ICAL 管线 ， 我 们 采用 了 以 单个 频段 ( 不 同 频 段 可 以 并 行 处 理 ) 分 拆 任 
务 的 方法 实现 分 布 并 行 计算 。 
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2 Degkerupd deg 阶段 任务 依赖 关系 图 
Figure 2. The dependency diagram in Degkerupd_deg phase 


Reppre fft 阶段 主要 是 对 Image 类 和 Skycomponent 的 处 理 ,整个 过 程 的 输入 是 
Image 和 Skycomponent , 输出 是 Image， 并 送 入 下 个 阶段 。 代 码 基 本 调用 过 程 包括 : 

(1) arl/skycomponent/operations/insert_skycomponent: 将 skycomponent 中 的 信息 按 
照 nchan 和 npol 两 个 轴 插 入 到 Image , XEKES IE : insert function sinc, 
insert_function__L , insert function pswf , insert_function_array. 

(2) arl/fourier_transforms/fft_support/fft: 对 Image 进行 全 里 叶 变 换 

(3) arl/image/operations/reproject_image: 将 切片 后 的 Image 按照 新 的 wcs 进行 重 投 
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(4) arl/image/iterators/raster_iter: Image 的 切片 画 数 


Degrid 阶段 主要 是 对 图 像 中 的 数据 进行 答 积 ， 具 体 答 积 的 过 程 和 可 见 度数 据 中 的 uvw 
等 属性 相关 。 并 将 结果 放 入 本 来 为 空 的 Visibility 类 的 Data 属性 中 。 

FESR ZB , image 先 被 padding 到 切片 之 前 的 大 小 ， 即 在 它 的 周围 填充 0。 然 后 整个 
矩阵 再 和 前 一 步 在 get_kernelist 中 得 到 的 griding correction function 做 一 个 点 对 点 的 乘法 ， 
对 得 到 的 结果 再 做 一 个 fft, 就 得 到 了 通道 化 的 image , 这 个 通道 化 的 image f ROK SCRI 
BR. 

在 分 布 执行 后 ， 最 终 用 以 下 方法 合并 reppre ifft 和 degrid 任务 。 

sc.parallelize(initset).flatMap(ix=>reppre_ifft_degrid_kernel(ix,broads_input_telescop 
e data,broadcast Ism)) 

这 里 initset 是 六 元 组 (beam, major. loop, frequency, time, facet, polarisation). 


2.1.1.2 Pharotpre_dft_sumvis 

为 了 避免 RDD Pharotpre_dft_sumvis 的 一 个 <key,value> 对 过 大 , 我 们 将 一 个 item 中 
的 时 间 分 片 个 数 由 120 减 为 10. 这 样 RDD Pharotpre_dft_sumvis 的 每 一 个 <key,value> 对 
中 包括 20 个 频率 的 10 个 时 间 片 。 图 3 给 出 了 任务 依赖 关系 图 。 
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3. Timeslots 阶段 任务 依赖 关系 图 


Figure 3. The dependency diagram in Timeslots phase 
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图 4. grikerupd rep 阶段 任务 依赖 关系 图 
Figure 4. The dependency diagram in grikerupd_rep phase. 


KA 管线 的 每 个 任务 IO 大 小 以 及 计算 量 都 是 确定 的 。 对 于 IO， 输入 、 输 出 以 及 中 间 
数据 大 小 都 是 确定 的 ,准确 计算 出 每 个 任务 具体 的 输入 输出 ,以 及 准确 计算 出 每 个 任务 的 计 
算 量 对 分 布 式 计算 的 任务 调度 具有 指导 意义 ,管线 数据 建 模 的 依据 是 对 每 一 个 管线 中 的 逻辑 
任务 ， 通 过 分 析 所 采用 的 算法 的 复杂 度 ， 并 且 计 算 输 入 输出 的 大 小 。 


系统 部 署 与 测试 


ye 环境 配置 
在 测试 中 我 们 采用 三 套 不 同 配置 的 集群 作为 测试 环境 ， 集群 1 包括 1 个 节点 ， 该 节点 


配备 1.5 TB 内 存 , CPU 为 80% , 每 个 核 主 频 为 2.2 GHZ.。 集 群 2 包括 4 个 节点 ， 每 个 
节点 配备 64 GB 内 存 ,CPU 为 8 核 , 每 个 核 主 频 为 1.8 GHZ。 软 件 系 统 中 Spark 的 版 本 
为 2.0 , JDK 版 本 为 1.8 。 


4.2 性 能 测试 
在 上 述 测试 互 不 干涉 中 ， 我们 分 别 对 单机 串 行程 序 和 基于 Spark 的 程序 进行 了 测试 ， 
串 行 程序 完全 是 在 集群 1 的 高 配 环境 中 完成 的 ， 最 终 的 执行 时 间 见 图 4 所 示 。 
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4 性 能 对 比 示意 图 , 在 3 个 进程 数 下 执行 的 时 间 对 比 ，Y 轴 单 位 为 秒 
Figure 4. The contrast diagram of execution time elapse with 3 different process 
number The unit of Y axis is second. 


五 、 结 论 与 未 来 工作 

Spark 是 当前 工业 界 最 流行 的 分 布 式 执 行 框架 之 一 。 实 验 表 明 , 基于 Spark 构建 SKA 
的 分 布 式 执行 框架 是 有 可 能 性 的 ,但 Spark 存在 一 些 很 实际 的 困难 ， 有 具体 说 明 如 下 : 

1: Spark 考虑 更 多 的 是 数据 密集 型 ， 它 的 任务 调度 和 资源 管理 目前 只 支持 CPU , 需要 
更 改 其 任务 调度 和 资源 管理 代码 来 支持 混合 计算 任务 的 调度 。 我们 在 研究 中 发 现 ， Spark 性 
能 瓶颈 在 于 数据 的 连接 操作 ，Spark 的 “cogroup” 需 要 对 几 个 大 的 数据 集 进行 排序 操作 , 产 
生 大 量 的 节点 通讯 。 另 外 RDD 链 过 长 ， 内 存 不 能 及 时 释放 ，Spark 内 存 不 足 时 ， 数 据 需 要 
写 到 磁盘 ， 序 列 化 与 反 序列 化 耗费 大 量 时 间 。Spark cogroup 和 groupByKeys 需要 排序 操 
E, 会 耗费 大 量 内 存 。 从 这 个 方面 来 看 Spark 要 满足 SKA 的 建设 要 求 存 在 较 多 待 改 进 的 
地 方 。 在 未 来 可 以 值得 在 如 下 方面 继续 进行 性 能 优化 

1) 增 大 内 存 。Spark 内 存 不 足 时 ， 数据 需要 写 到 磁盘 ， 序列 化 与 反 序列 化 耗费 大 量 时 
间 。Spark 的 cogroup 操作 需要 内 存 排 序 , 耗费 内 存 资源 。 

2 ) 利用 分 布 式 缓存 系统 替换 Cogroup 操作 ; 

3 ) 利用 分 布 式 缓存 系统 存储 部 分 RDD 的 内 容 , 打破 长 RDD i, 及 时 释放 内 存 资源 ; 

4 ) 利用 Spark 的 Partitioning 操作 代替 cogroup, Partitioning 可 以 做 到 数据 重组 。 同 
BIA KAR , KD join 操作 。 根 据 射 电 数 据 处 理 的 特点 ,在 预测 阶段 ,设计 根据 频率 
的 分 区 函数 ， 需 要 将 同一 频段 的 可 见 度数 据 聚 集 在 一 起 ， 按 照 频段 进行 分 区 ， 可 以 避免 join 
操作 。 在 去 卷 积 阶段 ， 设 计 根 据 分 片 的 分 区 函数 ， 避 免 join 操作 。 


2: Spark 的 shuffle 性 能 存在 严重 缺陷 ， Shuffle 是 MapReduce 框架 中 的 一 个 特定 的 
phase( 分 阶段 ) , 介 于 Map phase 和 Reduce phase 之 间 , 当 Map 的 输出 结果 要 被 Reduce 
使 用 时 输出 结果 需要 按 key 哈 希 ,并 且 分 发 到 每 一 个 Reducer 上 去 这 个 过 程 就 是 shuffle。 
由 于 shuffle 涉及 到 了 磁盘 的 读 写 和 网 络 的 传输 ,因此 shuffle 性 能 的 高 低 直 接 影响 到 了 整个 
程序 的 运行 效率 。 针 对 天 文海 量 数据 处 理 这 样 的 要 求 ，Spark 的 shuffle 性 能 显然 满足 不 了 
要 求 。 我 们 拟 采用 内 存 数据 库 来 代替 shuffle 的 相关 操作 ， 并 可 以 进一步 提高 Spark 的 并 行 
计算 性 能 。 这 样 的 工作 是 后 续 研究 的 重点 。 


参考 文献 : 


[1] Carilli C, Rawlings S. Science with the Square Kilometer Array: motivation, key science 


projects, standards and assumptions [J]. arXiv preprint astro-ph/0409274, 2004, 

[2] Dewdney P, Lazio T, Hall P, et al. The square kilometer array (SKA) radio telescope: 
Progress and technical directions [J]. Radio Science Bulletin, 2008, 326(4-19. 

[3] Staveley-Smith L. The Square Kilometre Array [J]. Australasian Science, 2009, 

[4] Broekema P C, Nieuwpoort R V V, Bal H E. ExaScale high performance computing in the 
square kilometer array; proceedings of the The Workshop on High-Performance Computing 
for Astronomy DATE, F, 2012 [C]. 

[5] Ae, 2, XCF, et al. MUSER 可 见 度 数据 积分 方法 与 实现 [J]. 天 文 研究 与 技术 ， 
v.15;No.57(1): 81-9. 

[6] FRERS, XXE, WR, etal. 宽 视 场 成 像 网 格 化 算法 中 w-plane 最 优 经 验 值 研究 [J]. KLA 
究 与 技术 , 2019, 16(2): 218-24. 

[7] Zaharia M, Chowdhury M, Franklin M J, et al. Spark: Cluster computing with working sets 
[J]. HotCloud, 2010, 10(10-10): 95. 

[8] Spark A. Apache Spark: Lightning-fast cluster computing [M]. 2015. 

[9] Rocklin M. Dask: Parallel computation with blocked algorithms and task scheduling; 
proceedings of the Proceedings of the 14th python in science conference, F, 2015 [C]. 


Citeseer. 


Implementation of SKA1-MID self-calibrating pipeline based on 
Spark 


Dai Wei! Wang Sen! Li Qiuhong? Deng Hui? Mei Ying? Wang Feng 123 


1. Yunnan Key Laboratory of Computer Technology Application, Kunming University 
of Science and Technology, Kunming, Yunnan, 650051 

2. Fudan University, Shanghai, 210000 

3. Astrophysics Center of Guangzhou University, Guangzhou 510006, China 


Abstract 

The amount of the scientific data generated by the SKA exceeds the processing 
capabilities of all existing distributed processing systems. How to implement a distributed 
execution framework is an important research issue of scientific data processing. Based 
on Spark framework, oen of the the most mature execution frameworks, this study 
attempts to systematically analyze how to migrate iCal pipelines in the Algorithm 
Reference Library (ARL) to Spark. We analyze and discusses the implementation 
procedure and present the corresponding task flow implementation. The final experiments 
show that the results of the iCAL upon Spark is correct. In summary, Spark could meet the 
requirements of distributed data for certain data. The limitations of Spark itself severely 
restrict its application in SKA. 
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